Model Selection

Text-Enhanced Vision

# Text-Enhanced Vision

Git Large Textcaps

GIT is a dual-conditional decoder model based on Transformer, designed for tasks such as image caption generation and visual question answering.

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase